14 research outputs found
Advances in Monocular Exemplar-based Human Body Pose Analysis: Modeling, Detection and Tracking
Esta tesis contribuye en el análisis de la postura del cuerpo humano a partir de secuencias de imágenes adquiridas con una sola cámara. Esta temática presenta un amplio rango de potenciales aplicaciones en video-vigilancia, video-juegos o aplicaciones biomédicas. Las técnicas basadas en patrones han tenido éxito, sin embargo, su precisión depende de la similitud del punto de vista de la cámara y de las propiedades de la escena entre las imágenes de entrenamiento y las de prueba. Teniendo en cuenta un conjunto de datos de entrenamiento capturado mediante un número reducido de cámaras fijas, paralelas al suelo, se han identificado y analizado tres escenarios posibles con creciente nivel de dificultad: 1) una cámara estática paralela al suelo, 2) una cámara de vigilancia fija con un ángulo de visión considerablemente diferente, y 3) una secuencia de video capturada con una cámara en movimiento o simplemente una sola imagen estática
The Understanding of Human Activities by Computer Vision Techniques
Esta tesis propone nuevas metodologÃas para el aprendizaje de actividades humanas y su clasificación en categorÃas. Aunque este tema ha sido ampliamente estudiado por la comunidad investigadora en visión por computador, aún encontramos importantes dificultades por resolver. En primer lugar hemos encontrado que la literatura sobre técnicas de visión por computador para el aprendizaje de actividades humanas empleando pocas secuencias de entrenamiento es escasa y además presenta resultados pobres [1] [2]. Sin embargo, este aprendizaje es una herramienta crucial en varios escenarios. Por ejemplo, un sistema de reconocimiento recién desplegado necesita mucho tiempo para adquirir nuevas secuencias de entrenamiento asà que el entrenamiento con pocos ejemplos puede acelerar la puesta en funcionamiento. También la detección de comportamientos anómalos, ejemplos de los cuales son difÃciles de obtener, puede beneficiarse de estas técnicas. Existen soluciones mediante técnicas de cruce dominios o empleando caracterÃsticas invariantes, sin embargo estas soluciones omiten información del escenario objetivo la cual reduce el ruido en el sistema mejorando los resultados cuando se tiene en cuenta y ejemplos de actividades anómalas siguen siendo difÃciles de obtener. Estos sistemas entrenados con poca información se enfrentan a dos problemas principales: por una parte el sistema de entrenamiento puede sufrir de inestabilidades numéricas en la estimación de los parámetros del modelo, por otra, existe una falta de información representativa proveniente de actividades diversas. Nos hemos enfrentado a estos problemas proponiendo novedosos métodos para el aprendizaje de actividades humanas usando tan solo un ejemplo, lo que se denomina one-shot learning. Nuestras propuestas se basan en sistemas generativos, derivadas de los Modelos Ocultos de Markov[3][4], puesto que cada clase de actividad debe ser aprendida con tan solo un ejemplo. Además, hemos ampliado la diversidad de información en los modelos aplicado una transferencia de información desde fuentes externas al escenario[5]. En esta tesis se explican varias propuestas y se muestra como con ellas hemos conseguidos resultados en el estado del arte en tres bases de datos públicas [6][7][8]. La segunda dificultad a la que nos hemos enfrentado es el reconocimiento de actividades sin restricciones en el escenario. En este caso no tiene por qué coincidir el escenario de entrenamiento y el de evaluación por lo que la reducción de ruido anteriormente expuesta no es aplicable. Esto supone que se pueda emplear cualquier ejemplo etiquetado para entrenamiento independientemente del escenario de origen. Esta libertad nos permite extraer vÃdeos desde cualquier fuente evitando la restricción en el número de ejemplos de entrenamiento. Teniendo suficientes ejemplos de entrenamiento tanto métodos generativos como discriminativos pueden ser empleados. En el momento de realización de esta tesis encontramos que el estado del arte obtiene los mejores resultados empleando métodos discriminativos, sin embargo, la mayorÃa de propuestas no suelen considerar la información temporal a largo plazo de las actividades[9]. Esta información puede ser crucial para distinguir entre actividades donde el orden de sub-acciones es determinante, y puede ser una ayuda en otras situaciones[10]. Para ello hemos diseñado un sistema que incluye dicha información en una Máquina de Vectores de Soporte. Además, el sistema permite cierta flexibilidad en la alineación de las secuencias a comparar, caracterÃstica muy útil si la segmentación de las actividades no es perfecta. Utilizando este sistema hemos obtenido resultados en el estado del arte para cuatro bases de datos complejas sin restricciones en los escenarios[11][12][13][14]. Los trabajos realizados en esta tesis han servido para realizar tres artÃculos en revistas del primer cuartil [15][16][17], dos ya publicados y otro enviado. Además, se han publicado 8 artÃculos en congresos internacionales y uno nacional [18][19][20][21][22][23][24][25][26]. [1]Seo, H. J. and Milanfar, P. (2011). Action recognition from one example. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(5):867–882.(2011) [2]Yang, Y., Saleemi, I., and Shah, M. Discovering motion primitives for unsupervised grouping and one-shot learning of human actions, gestures, and expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(7):1635–1648. (2013) [3]Rabiner, L. R. A tutorial on hidden markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2):257–286. (1989) [4]Bishop, C. M. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA. (2006) [5]Cook, D., Feuz, K., and Krishnan, N. Transfer learning for activity recognition: a survey. Knowledge and Information Systems, pages 1–20. (2013) [6]Schuldt, C., Laptev, I., and Caputo, B. Recognizing human actions: a local svm approach. In International Conference on Pattern Recognition (ICPR). (2004) [7]Weinland, D., Ronfard, R., and Boyer, E. Free viewpoint action recognition using motion history volumes. Computer Vision and Image Understanding, 104(2-3):249–257. (2006) [8]Gorelick, L., Blank, M., Shechtman, E., Irani, M., and Basri, R. Actions as space-time shapes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(12):2247–2253. (2007) [9]Wang, H. and Schmid, C. Action recognition with improved trajectories. In IEEE International Conference on Computer Vision (ICCV). (2013) [10]Choi, J., Wang, Z., Lee, S.-C., and Jeon, W. J. A spatio-temporal pyramid matching for video retrieval. Computer Vision and Image Understanding, 117(6):660 – 669. (2013) [11]Oh, S., Hoogs, A., Perera, A., Cuntoor, N., Chen, C.-C., Lee, J. T., Mukherjee, S., Aggarwal, J. K., Lee, H., Davis, L., Swears, E., Wang, X., Ji, Q., Reddy, K., Shah, M., Vondrick, C., Pirsiavash, H., Ramanan, D., Yuen, J., Torralba, A., Song, B., Fong, A., Roy-Chowdhury, A., and Desai, M. A large-scale benchmark dataset for event recognition in surveillance video. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3153–3160. (2011) [12] Niebles, J. C., Chen, C.-W., and Fei-Fei, L. Modeling temporal structure of decomposable motion segments for activity classification. In European Conference on Computer Vision (ECCV), pages 392–405.(2010) [13]Reddy, K. K. and Shah, M. Recognizing 50 human action categories of web videos. Machine Vision and Applications, 24(5):971–981. (2013) [14]Kuehne, H., Jhuang, H., Garrote, E., Poggio, T., and Serre, T. HMDB: a large video database for human motion recognition. In IEEE International Conference on Computer Vision (ICCV). (2011) [15]Rodriguez, M., Orrite, C., Medrano, C., and Makris, D. One-shot learning of human activity with an map adapted gmm and simplex-hmm. IEEE Transactions on Cybernetics, PP(99):1–12. (2016) [16]Rodriguez, M., Orrite, C., Medrano, C., and Makris, D. A time flexible kernel framework for video-based activity recognition. Image and Vision Computing 48-49:26 – 36. (2016) [17]Rodriguez, M., Orrite, C., Medrano, C., and Makris, D. Extended Study for One-shot Learning of Human Activity by a Simplex-HMM. IEEE Transactions on Cybernetics (Enviado) [18]Orrite, C., Rodriguez, M., Medrano, C. One-shot learning of temporal sequences using a distance dependent Chinese Restaurant Process. In Proceedings of the 23nd International Conference Pattern Recognition ICPR (December 2016) [19]Rodriguez, M., Medrano, C., Herrero, E., and Orrite, C. Spectral Clustering Using Friendship Path Similarity Proceedings of the 7th Iberian Conference, IbPRIA (June 2015) [20]Orrite, C., Soler, J., Rodriguez, M., Herrero, E., and Casas, R. Image-based location recognition and scenario modelling. In Proceedings of the 10th International Conference on Computer Vision Theory and Applications, VISAPP (March 2015) [21]Castán, D., RodrÃguez, M., Ortega, A., Orrite, C., and Lleida, E. Vivolab and cvlab - mediaeval 2014: Violent scenes detection affect task. In Working Notes Proceedings of the MediaEval (October 2014) [22]Orrite, C., Rodriguez, M., Herrero, E., Rogez, G., and Velastin, S. A. Automatic segmentation and recognition of human actions in monocular sequences In Proceedings of the 22nd International Conference Pattern Recognition ICPR (August 2014) [23]Rodriguez, M., Medrano, C., Herrero, E., and Orrite, C. Transfer learning of human poses for action recognition. In 4th International Workshop of Human Behavior Unterstanding (HBU). (October 2013) [24]Rodriguez, M., Orrite, C., and Medrano, C. Human action recognition with limited labelled data. In Actas del III Workshop de Reconocimiento de Formas y Analisis de Imagenes, WSRFAI. (September 2013) [25]Orrite, C., Monforte, P., Rodriguez, M., and Herrero, E. Human Action Recognition under Partial Occlusions . Proceedings of the 6th Iberian Conference, IbPRIA (June 2013) [26]Orrite, C., Rodriguez, M., and Montañes, M. One sequence learning of human actions. In 2nd International Workshop of Human Behavior Unterstanding (HBU). (November 2011)This thesis provides some novel frameworks for learning human activities and for further classifying them into categories. This field of research has been largely studied by the computer vision community however there are still many drawbacks to solve. First, we have found few proposals in the literature for learning human activities from limited number of sequences. However, this learning is critical in several scenarios. For instance, in the initial stage after a system installation the capture of activity examples is time expensive and therefore, the learning with limited examples may accelerate the operational launch of the system. Moreover, examples for training abnormal behaviour are hardly obtainable and their learning may benefit from the same techniques. This problem is solved by some approaches, such as cross domain implementations or the use of invariant features, but they do not consider the specific scenario information which is useful for reducing the clutter and improving the results. Systems trained with scarce information face two main problems: on the one hand, the training process may suffer from numerical instabilities while estimating the model parameters; on the other hand, the model lacks of representative information coming from a diverse set of activity classes. We have dealt with these problems providing some novel approaches for learning human activities from one example, what is called a one-shot learning method. To do so, we have proposed generative approaches based on Hidden Markov Models as we need to learn each activity class from only one example. In addition, we have transferred information from external sources in order to introduce diverse information into the model. This thesis explains our proposals and shows how these methods achieve state-of-the-art results in three public datasets. Second, we have studied the recognition of human activities in unconstrained scenarios. In this case, the scenario may or may not be repeated in training and evaluation and therefore the clutter reduction previously mentioned does not happen. On the other hand, we can use any labelled video for training the system independently of the target scenario. This freedom allows the extraction of videos from the Internet dismissing the implicit constrains when training with limited examples. Having plenty of training examples both, generative and discriminative, methods can be used and by the time this thesis has been made the state-of-the-art has been achieved by discriminative ones. However, most of the methods usually fail when taking into consideration long-term information of the activities. This information is critical when comparing activities where the order of sub-actions is important, and may be useful in other comparisons as well. Thus, we have designed a framework that incorporates this information in a discriminative classifier. In addition, this method introduces some flexibility for sequence alignment, useful feature when the activity segmentation is not exact. Using this framework we have obtained state-of-the-art results in four challenging public datasets with unconstrained scenarios
Localización de objetos en tiempo real en imágenes para entornos domésticos
Este trabajo se enmarca dentro del proyecto Memory Lane cuyo objetivo principal consiste en el desarrollo de un asistente para personas que sufren pérdidas de memoria. Este asistente será capaz de recordar desde dónde han dejado algún objeto hasta una receta de cocina. En este trabajo se busca diseñar un sistema que sea capaz de aprender a reconocer objetos. De tal manera que el sistema, una vez entrenado, esté preparado para de responder en el menor tiempo posible que objetos contiene una cierta imagen de entrada. El asistente de Memory Lane, deberá tener la información disponible lo más rápido posible. Cabe indicar que los objetos a reconocer pueden estar a distintas distancias de la cámara y en distintos ángulos, es decir, los objetos pueden aparece en cualquier punto de la imagen y con cualquier tamaño y orientación. Para ello se emplea la red neuronal convolucional (CNN) ConvNet como extractor de caracterÃsticas. Tras ello, se reducen las caracterÃsticas eligiendo máximos y empleando Linear Discriminat Analysis (LDA). Se entrena un perceptrón multicapa (MLP) como clasificador, al que luego se le pasará una imagen en varios subconjuntos y escalas. Combinando la información de salida del MLP se construirá un mapa de calor que permitirá detectar los lÃmites de los distintos objetos presentes en dicha imagen
Seguimiento de objetos basado en caracterÃsticas y estructura
Este proyecto pretende implementar un algoritmo capaz de realizar el seguimiento de un objeto dentro de una secuencia de vÃdeo, superando las carencias que presentan algunos de los métodos utilizados en la actualidad. El procedimiento se basa en tres elementos fundamentales: extractor de caracterÃsticas, algoritmo de seguimiento y modelado estructural del objeto. Como extractor de caracterÃsticas del objeto a seguir planteamos la utilización de histogramas de gradientes orientados (HOGs) asà como descriptores del tipo SIFT (Scale Invariant Feature Transform) o SURF (Speeded-Up Robust Features). El algoritmo de seguimiento contemplado es Mean shift teniendo en cuenta que se realizará un seguimiento en posición, orientación y escala. Finalmente, para hacer una mejor aproximación y corregir las carencias del algoritmo basado en apariencia nombrado, se hace un estudio de los puntos corregidos en cada una de las escalas, mediante un método estructural que se basa en la Triangulación de Delaunay y las coordenadas baricéntricas. Éste otro algoritmo, crea una red de triángulos para cada fotograma y escala, en la que se podrán modificar las posiciones de cada uno de los puntos en base a sus coordenadas baricéntricas respecto a alguno de los triángulos contenidos en la red. La propuesta se comparará con uno de los algoritmos considerados en el estado del arte, cuya principal limitación es el alto coste computacional que conlleva, consistente en la selección previa de un conjunto de puntos representativos del objeto en el primer fotograma, para los cuales se obtendrán una matriz de caracterÃsticas mediante el descriptor de caracterÃsticas SIFT, que realiza la búsqueda de descriptores en distintas escalas. El objeto es reconocido en una nueva imagen comparando las caracterÃsticas de cada punto del objeto con los almacenados en el primer fotograma y encontrando el candidato más apropiado basándose en la distancia EuclÃdea y el método RANSAC que elige emparejamientos de puntos y calcula la transformada a la que han sido expuestos para posteriormente aplicarla al resto de puntos caracterÃsticos de la imagen. Con todo ello se pretende crear un único método capaz de realizar el seguimiento de un objeto que sufre transformaciones afines, asà como oclusiones, minimizando el tiempo
Magnitude Sensitive Competitive Neural Networks
En esta Tesis se presentan un conjunto de redes neuronales llamadas Magnitude Sensitive Competitive Neural Networks (MSCNNs). Se trata de un conjunto de algoritmos de Competitive Learning que incluyen un término de magnitud como un factor de modulación de la distancia usada en la competición. Al igual que otros métodos competitivos, MSCNNs realizan la cuantización vectorial de los datos, pero el término de magnitud guÃa el entrenamiento de los centroides de modo que se representan con alto detalle las zonas deseadas, definidas por la magnitud. Estas redes se han comparado con otros algoritmos de cuantización vectorial en diversos ejemplos de interpolación, reducción de color, modelado de superficies, clasificación, y varios ejemplos sencillos de demostración. Además se introduce un nuevo algoritmo de compresión de imágenes, MSIC (Magnitude Sensitive Image Compression), que hace uso de los algoritmos mencionados previamente, y que consigue una compresión de la imagen variable según una magnitud definida por el usuario. Los resultados muestran que las nuevas redes neuronales MSCNNs son más versátiles que otros algoritmos de aprendizaje competitivo, y presentan una clara mejora en cuantización vectorial sobre ellos cuando el dato está sopesado por una magnitud que indica el ¿interés¿ de cada muestra
Sistema de geolocalización basado en imágenes para dispositivos móviles
En este proyecto fin de máster, se muestra una aplicación de realidad aumentada capaz de geolocalizar a un usuario en un entorno conocido. El sistema ha sido entrenado para funcionar en una localización real, la plaza San Felipe de Zaragoza. Al tomar una foto de la plaza, en función de los edificios que contenga la imagen, el sistema es capaz de determinar la posición desde la cual se ha tomado. Una vez realizada esta ubicación tridimensional, se superpone en la fotografÃa tomada una imagen 3D de la ‘Torre Nueva’, una antigua torre mudéjar que se encontraba en esa misma plaza hasta 1892 que fue derruida. Esta aplicación funciona de forma externa, enviando la imagen tomada por el terminal a un servidor remoto que realiza los cálculos. Todo este proceso resulta costoso en tiempo, lo que provoca que la aplicación no se pueda ejecutar en tiempo real. Tanto el tiempo de envÃo al servidor como la extracción de caracterÃsticas de las imágenes en el proyecto previo requieren de un tiempo superior al deseado en una aplicación de tiempo real. En este proyecto, se pretende implementar todas las operaciones del cálculo de la localización en el mismo terminal en el que se realiza la fotografÃa. Además, se muestra un estudio de técnicas de extracción de caracterÃsticas para mejorar este tiempo de cómputo. Estas caracterÃsticas serán los keypoints o puntos relevantes de la imagen. Estos keypoints se extraen mediante algoritmos de visión por computador llamados descriptores. En el proyecto previo se utiliza el descriptor SIFT que, como ya se ha mencionado, resulta costoso computacionalmente. En este proyecto el descriptor SIFT es sustituido por el descriptor BRISK, mucho más veloz, aunque menos preciso en su cometido. Una vez se han obtenido los puntos relevantes de dos imágenes distintas, realiza un emparejamiento entre ellos con un algoritmo de matching. Es de esta forma en la cual el sistema se localiza en el entorno 3D. Los algoritmos de matching emparejan los keypoints más probables de ambas imágenes. Sin embargo, este proceso suele presentar falsos emparejamientos o espurios que deben ser eliminados. En este proyecto se presentan nuevas técnicas de realizar este filtrado para asegurar que los emparejamientos producidos sean robustos y coherentes entre sÃ. En una base de datos de imágenes de la plaza San Felipe, se pueden emparejar las imágenes entre sà siguiendo el proceso anterior para obtener un modelado 3D del entorno. Con este modelado del mundo 3D, el sistema es capaz de emparejar una fotografÃa nueva y localizar la posición de la cámara para superponer la ‘Torre Nueva’ en la posición correcta
Detection of tennis activities with wearable sensors
This paper aims to design and implement a system capable of distinguishing between different activities carried out during a tennis match. The goal is to achieve the correct classification of a set of tennis strokes. The system must exhibit robustness to the variability of the height, age or sex of any subject that performs the actions. A new database is developed to meet this objective. The system is based on two sensor nodes using Bluetooth Low Energy (BLE) wireless technology to communicate with a PC that acts as a central device to collect the information received by the sensors. The data provided by these sensors are processed to calculate their spectrograms. Through the application of innovative deep learning techniques with semi-supervised training, it is possible to carry out the extraction of characteristics and the classification of activities. Preliminary results obtained with a data set of eight players, four women and four men have shown that our approach is able to address the problem of the diversity of human constitutions, weight and sex of different players, providing accuracy greater than 96.5% to recognize the tennis strokes of a new player never seen before by the system
Reconocimiento de acciones deportivas en secuencias de vÃdeo mediante técnicas de aprendizaje automático
Se va a tratar de desarrollar una herramienta que sea capaz de reconocer acciones de tenis en secuencias de vÃdeo mediante técnicas de machine learning. Se va a crear una base de datos adecuada a las ontologÃas relativas a la actividad elegida (tenis), a partir de ella, se van a estudiar diferentes metodologÃas de tratamiento de imágenes con el fin de extraer caracterÃsticas para, posteriormente, analizarlas mediante técnicas de machine learning. La validez de los resultados obtenidos junto al estado del arte nos permitirá llegar a unas conclusiones y nos descubrirá nuevos enfoques sobre el reconocimiento de acciones y personas.<br /
Seguimiento de múltiples objetos basado en el algoritmo de Viterbi
El seguimiento de objetos en secuencias de imágenes es actualmente un tema investigación importante debido a que tiene un amplio rango de aplicaciones tales como video vigilancia, análisis deportivo, etc. Un ejemplo común es el análisis de jugadores en un partido de fútbol. Mediante el procesamiento de las imágenes se puede establecer la trayectoria de cada jugador durante el partido y asà proveer información importante sobre su actividad. El problema del seguimiento de objetos tiene dos grandes pasos principales, el primero es detectar y localizar los objetos dentro de los fotogramas del video y el segundo es la parte de seguimiento, esto implica implementar un método que obtenga las trayectorias de los objetos detectados resolviendo las oclusiones que pueden establecer entre ellos. En este trabajo se propone un método para el seguimiento de múltiples objetos. Se parte de un trabajo previo donde se detectó a los jugadores en la imagen y se estableció la localización de todos ellos en el terreno de juego, afrontando el segundo problema explicado, es decir, la asignación de una etiqueta inequÃvoca para cada jugador a lo largo de todo el partido. Para llevar a cabo esta tarea previamente se ha procedido a un etiquetado manual de todos los jugadores para posteriormente verificar la fiabilidad del método propuesto. El método planteado sigue un análisis de probabilidades de presencia de cada jugador en una posición determinada del campo y un método robusto de asignación temporal de todas las posiciones de los jugadores mediante el algoritmo de Viterbi
Reconocimiento de acciones humanas en secuencias de vÃdeo
En este proyecto se pretende conseguir el reconocimiento de acciones humanas en secuencias de vÃdeo. El tipo de acciones que se va a tratar consistirá en acciones simples ejecutadas por una sola persona en diferentes posiciones (por ejemplo, dar una patada, sentarse en el suelo, etc). El mayor problema que se abordará consistirá en el reconocimiento de estas acciones en situaciones de oclusión parcial de la figura, lo cual se produce en multitud de ocasiones en la vida real. Trabajaremos con secuencias de vÃdeo de dominio público y libre acceso. Las secuencias de vÃdeo provienen de tres bases de datos de uso público que ya han sido utilizadas en estudios anteriores con un fin similar al nuestro, el reconocimiento de acciones humanas. Dichas secuencias podrán estar grabadas desde distintos puntos de vista con diferentes cámaras. Esto requiere un procesamiento previo de las imágenes para la extracción de caracterÃsticas que se utilizarán en el clasificador. Es en este punto donde introducimos un nuevo descriptor ideado por nosotros basándonos en la dirección de los movimientos realizados en la ejecución de una acción. Además, nos encontramos con el problema de implementar un método de normalización de los datos de entrada al clasificador que sea independiente del grado de oclusión de la figura en la imagen. Durante el desarrollo de este sistema de reconocimiento se emplean varias técnicas de procesado digital de imagen para la extracción de caracterÃsticas. Además, el modelado de la acción humana se llevará a cabo mediante Modelos Ocultos de Markov (HMM), y su posterior reconocimiento se realizará también basándonos en dicha metodologÃa